Заглавие

Text copied to clipboard!

Инженер по надеждността на сайтове (SRE)

Описание

Text copied to clipboard!

Търсим Инженер по надеждността на сайтове (SRE), който да се присъедини към нашия екип и да играе ключова роля в поддържането на стабилността, мащабируемостта и ефективността на нашите системи. Като SRE, вие ще работите в тясно сътрудничество с екипите по разработка и операции, за да осигурите безпроблемна работа на нашите услуги и приложения. Вашата основна цел ще бъде да автоматизирате процеси, да подобрявате мониторинга и да реагирате бързо на инциденти, за да минимизирате времето на престой и да осигурите висока наличност. Вашите отговорности ще включват проектиране и внедряване на инструменти за наблюдение, анализ на производителността, управление на инциденти и участие в архитектурни решения, които подобряват надеждността на системите. Ще работите с облачни платформи, контейнери и CI/CD процеси, за да осигурите бързо и безопасно внедряване на нови функционалности. Освен това ще участвате в разработването на политики за сигурност и възстановяване при бедствия. Идеалният кандидат има силен технически опит в Linux/Unix среди, познания по програмиране (напр. Python, Go или Bash), опит с инструменти за мониторинг като Prometheus, Grafana или Datadog, както и умения за работа с Kubernetes и облачни платформи като AWS, GCP или Azure. Очакваме от вас да имате аналитично мислене, способност за решаване на проблеми и желание за непрекъснато усъвършенстване на процесите. Ако сте мотивиран професионалист, който се стреми към висока надеждност и автоматизация, и искате да работите в динамична и технологично напреднала среда, ще се радваме да се свържете с нас.

Отговорности

Text copied to clipboard!

Осигуряване на висока наличност и надеждност на системите
Разработване и поддръжка на инструменти за мониторинг и алармиране
Автоматизиране на рутинни операции и процеси
Участие в управление на инциденти и анализ на причините
Сътрудничество с екипи по разработка за внедряване на нови функционалности
Оптимизиране на производителността на системите
Участие в архитектурни решения за подобряване на надеждността
Поддръжка на CI/CD процеси и инфраструктура
Разработване на политики за сигурност и възстановяване при бедствия
Документиране на процеси и добри практики

Изисквания

Text copied to clipboard!

Опит като SRE, DevOps инженер или системен администратор
Добри познания по Linux/Unix системи
Умения за програмиране на Python, Go или Bash
Опит с инструменти за мониторинг като Prometheus, Grafana или Datadog
Познания по Kubernetes и контейнери
Опит с облачни платформи (AWS, GCP, Azure)
Разбиране на CI/CD процеси и инструменти
Умения за анализ и решаване на проблеми
Добри комуникационни умения и работа в екип
Желание за учене и усъвършенстване

Потенциални въпроси за интервю

Text copied to clipboard!

Какъв е вашият опит с мониторинг и алармиране?
Работили ли сте с Kubernetes и какви предизвикателства сте срещали?
Как автоматизирате рутинни задачи в ежедневната си работа?
Как реагирате при инциденти и какво е вашето участие в анализа на причините?
Какви инструменти използвате за CI/CD и защо?
Какви са вашите предпочитани езици за скриптиране и защо?
Как поддържате сигурността на инфраструктурата?
Какво е вашето разбиране за SLO/SLI/SLA?
Какво ви мотивира да работите като SRE?
Как се справяте с работа под напрежение?

Заглавие

Инженер по надеждността на сайтове (SRE)

Описание

Отговорности

Изисквания

Потенциални въпроси за интервю

Необходими умения

Свързани длъжностни описания